Übung Sprache erkennen

An Hand der Häufigkeitsverteilung der n-Gramme lässt sich beurteilen, in welcher Sprache ein Dokument verfasst ist. Dazu vergleicht man dessen Häufigkeitsverteilung mit der eine Textkorpus, von dem man die Sprache kennt. Bei ähnlicher Verteilung kann man davon ausgehen, dass die Sprache gleich ist.

In dieser Übung können Sie das in zwei Aufgaben ausprobieren. Die Dokumente finden Sie im Zip-Archiv Ngram.zip. Die Ermittlung der Häufigkeitsverteilung nimmt Ihnen das Programm iti-ngram ab. Nach dem Herunterladen können Sie das Programm mit einem Doppelklick starten.

Sprache einer vorgegebenen Verteilung

Im Zip-Archiv finden Sie die beiden Dateien deutsch.txt und englisch.txt mit jeweils einem Text in der entsprechenden Sprache. Ermitteln Sie die Verteilung der 3-Gramme. Ein weiterer Text wurde bereits analysiert. Dessen sechs häufigste 3-Gramme zusammen mit ihren Häufigkeiten finden sich in der folgenden Tabelle.

3-Gramm Häufigkeit
en[Leerzeichen] 2,8 %
er[Leerzeichen] 1,3 %
nd[Leerzeichen] 1,2 %
ie[Leerzeichen] 1,1 %
gen 1,0 %
ich 0,9 %

Vergleichen Sie diese Häufigkeiten mit denen der deutschen und englischen Texte. Wurde der Text mit der obigen Häufigkeitsverteilung in deutscher oder englischer Sprache verfasst?

Sprache eines vorgegebenen Dokuments

Im Zip-Archiv finden Sie die beiden Dateien norwegisch.txt und schwedisch.txt mit jeweils einem Text in der entsprechenden Sprache. Des Weiteren enthält das Archiv eine Datei unbekannt.txt, von der bekannt ist, dass sie einen norwegischen oder schwedischen Text enthält. Ermitteln Sie die Verteilung der n-Gramme und finden Sie durch Vergleichen heraus, ob der Text in Norwegisch oder Schwedisch verfasst wurde.